- De snelle opkomst van artificial intelligence-tools als ChatGPT en Dall-E zorgt voor de nodige vragen over de data die deze platformen verzamelen en gebruiken.
- Het is de gewoonste zaak van de wereld om data van gebruikers in te zetten voor de verbetering van AI-modellen.
- Daarom moeten gebruikers opletten wat ze invoeren en wordt het belangrijk om te weten hoe softwarebedrijven met dit soort gegevens omgaan.
- Lees ook: Topman van ‘plagiaat-bot’ ChatGPT tegen docenten: wen er maar aan dat het bestaat en pas je aan
ANALYSE – Het is natuurlijk hartstikke leuk om marketingteksten of complete boeken door ChatGPT te laten schrijven, of om je profielfoto te laten maken door Dall-E. Maar de plotselinge doorbraak van deze op artificial intelligence (AI) werkende tools zorgt ook voor een hoop nieuwe uitdagingen. Een daarvan betreft de vraag hoe deze AI-platformen omgaan met de data die je invoert.
Heb je je bijvoorbeeld wel eens afgevraagd wat er met de teksten of beelden gebeurt die je in deze tools invoert? De vragen die je aan ChatGPT stelt en de afbeeldingen die je in Lensa AI invoert, verdwijnen namelijk niet als sneeuw voor de zon als je de app afsluit. Die data wordt bewaard en gebruikt om het AI-model achter de tool te verbeteren.
Deze manier van werken en data verzamelen is voor veel softwarebedrijven als OpenAI, de maker van ChatGPT en Dall-E, de gewoonste zaak van de wereld. Het staat dan ook in de gebruiksvoorwaarden beschreven. In essentie ben je, door gebruik te maken van ChatGPT, een trainer van het onderliggende model.
Sterker nog, OpenAI stelt in de gebruiksvoorwaarden dat alle in- en output gebruikt kan worden om antwoord te geven op de vragen die je stelt.
Tevens blijft dit niet beperkt tot één individu, want het hele AI-model wordt getraind op basis van door jou ingevoerde teksten en beelden om resultaten te genereren voor anderen. Om het even heel simpel te uit te leggen: als je een foto invoert in Lensa AI om een leuke profielfoto te genereren, kan de achterliggende software deze foto analyseren en vervolgens als bron gebruiken voor iemand die een foto van een willekeurig persoon in een auto wil genereren. In dit geval zou die kunstmatig gegenereerde persoon op jou kunnen lijken, aangezien jouw foto als bron wordt gebruikt.
'Fine-tuning': AI optimaliseren met data
In de praktijk is dit niet zo zwart-wit. Maar het is wel hoe veel AI-modellen werken. Dit proces noemt men 'fine-tuning', wat betekent dat nieuwe data gebruikt wordt om een specifiek onderdeel van een model te optimaliseren. Het doel: het naar verloop van tijd beter kunnen begrijpen van de invoer van gebruikers en het optimaliseren van de reactie hierop, oftewel de output van de software.
Bij het fine-tunen wordt relevante data van een grote groep gebruikers geanonimiseerd en op een hoop gegooid. Vervolgens wordt dit geoptimaliseerd en in het AI-model ingevoerd. Bij OpenAI gaat het om grote hoeveelheden data die gestructureerd worden met behulp van gespecialiseerde software.
In het geval van de door individuen ingevoerde data, zegt OpenAI dat het bedrijf hier alleen gebruik van maakt als het toevallig in een fine-tuningscenario past.
OpenAI is vrij open over deze manier van werken. Het specificeert in de gebruiksvoorwaarden dat de gebruiker (jij) ermee instemt dat alle invoer en uitvoer door het bedrijf gebruikt kan en mag worden om de achterliggende technologie te verbeteren.
De ontwikkelaar plaatst er wel een kanttekening bij: alle identificeerbare data wordt verwijderd. Maar of hierbij bijvoorbeeld typische kenmerken van jouw gezicht worden verwijderd, of dat het hier alleen gaat om persoonlijke data die uit de metadata van de foto wordt geschrapt, is niet duidelijk.
OpenAI verzamelt zo'n beetje alles van je
Duidelijker is het bedrijf over welke persoonlijke data het van je verzamelt, als je de software gebruikt. En daar hoeven we geen lange lijst voor op te stellen, want het komt neer op zo’n beetje alles. Je IP-adres, je sociale media-accounts, je locatie, je apparaten en ga zo maar door. OpenAI kan in theorie dus een goed beeld van je schetsen als het je input koppelt aan de verzamelde gegevens.
En al die data kan het bedrijf zonder problemen met derden delen. Dat staat ook in de gebruiksvoorwaarden. OpenAI hoeft je hier niet eens van op de hoogte te stellen. Wel moet het er zeker van zijn dat de derde partij zich ook houdt aan dezelfde regels als OpenAI. Daaronder vallen ook privacywetten zoals de Europese General Data Protection Regulation (GDPR).
Om je een beetje een goed gevoel te geven dat je ChatGPT en Dall-E gewoon kunt blijven gebruiken, zegt het bedrijf dat het gevoelige informatie netjes volgens alle geldende richtlijnen behandelt en dat je er op kunt vertrouwen dat het, uitzonderingen daargelaten, veilig is. Ook beperkt het de verzamelde data tot maximaal 200 sessies per gebruiker per half jaar.
Maar dit alles zegt niets over het gebruik van door jou ingevulde gevoelige informatie door OpenAI. Het is logisch om te denken dat het bedrijf hier niets mee doet. En hoewel het bedrijf ook zegt dat het in essentie niets doet met dit soort data, dekt OpenAI zich in door te zeggen dat je zelf moet letten op de data die je invoert.
Zodra je gegevens invoert, gaat OPenAI er eigenlijk vanuit dat de data niet vertrouwelijk is en dus gebruikt mag worden, tenzij je specifiek aangeeft dat dit niet het geval is. Hoe je dat doet? Door een mailtje naar het bedrijf te sturen.
Ook kun je OpenAI laten weten dat je liever helemaal geen data met hen deelt. In dat geval beperkt het bedrijf de werking van de tools wel voor je. In hoeverre de software dan nog bruikbaar is, verschilt per persoon.
Persoonlijke data: een grijs gebied
Voor bedrijven maakt OpenAI bij dit alles uitzonderingen, mits er voldoende schaalgrootte is. Dan wil het softwarebedrijf om de tafel om specifieke afspraken te maken. Maar zelfs dan wil OpenAI nog steeds data uit de invoer verzamelen en bewaren om veiligheidsredenen. Deze data hoeft dan niet gebruikt te worden voor fine-tuning.
Uiteindelijk verzamelt OpenAI eigenlijk alle mogelijke data en een beetje meer. De software leert immers ook van jouw invoer. En hoewel OpenAI belooft om de verzamelde data te ontkoppelen van identificeerbare gegevens, is het niet duidelijk hoe het bedrijf dit uitvoert en hoever het hierin gaat.
Toch is het niet aannemelijk dat vertrouwelijke informatie ooit in ongewijzigde vorm als resultaat bij een andere gebruiker naar boven komt. Niet alleen worden gegevens op een hoop gegooid met andere informatie, ook wordt de invoer van gebruikers ingezet voor specifieke kleine verbeteringen. Het is überhaupt de vraag of er inhoudelijk naar jouw invoer gekeken wordt.
Uiteindelijk is er maar één manier op je privacy echt te beschermen: geen gebruik maken van AI-tools. Voor wie dat wel doet: denk na bij wat je doet en deel niet zomaar gevoelige gegevens, zeker niet bij AI-tools van onbekende partijen.